Multiple Regression

Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences by Jacob Cohen, Patricia Cohen, Stephen G. West, Leona S. Aiken

Author

Sungkyun Cho

Published

February 17, 2023

Multiple linear/regression models

  • 독립/예측 변수가 1개 이상인 경우
  • 예측변수들 각각의 고유한 효과(effect)를 추정(estimate)
  • 이는 다른 변수들의 값이 고정된다면(hold them constant) 해당 변수의 효과는 어떠한가를 의미

Case 1

교수의 연봉(salary)이 학위를 받은 후 지난 시간(time since Ph.D.)과 출판물의 수(pubs)에 의해 어떻게 영향을 받는가?

  • 같은 연차의 교수들 간에 논문 수에 따라 연봉은 얼마나 차이가 나는가?
  • 동일한 개수의 논문을 발표한 교수들 간에 연차에 따라 연봉은 얼마나 차이가 나는가?

앞서 연봉에 대한 예측모형을 다음과 같이 얻었는데,

  • Model 1: \(\widehat{salary} = \$43,659 + \$1,224\:time\)
  • Model 2 : \(\widehat{salary} = \$46,357 + \$336\:pubs\)

다음과 같이 연차가 늘면 논문의 수도 따라서 늘어나는 경향이 있기 때문에, 연차 또는 논문 수의 고유한 효과를 추정하기 어려움.

  • \(\widehat{pubs} = 4.73 + 1.98\:time\)
  • \(\widehat{time} = 3.33 + 0.22\:pubs\)
acad0 <- read_csv("data/c0301dt.csv")
acad0 |> print()
# A tibble: 15 x 3
    time  pubs salary
   <dbl> <dbl>  <dbl>
 1     3    18  51876
 2     6     3  54511
 3     3     2  53425
 4     8    17  61863
 5     9    11  52926
 6     6     6  47034
 7    16    38  66432
 8    10    48  61100
 9     2     9  41934
10     5    22  47454
11     5    30  49832
12     6    21  47047
13     7    10  39115
14    11    27  59677
15    18    37  61458
mod1 <- lm(salary ~ time, data = acad0)
mod2 <- lm(salary ~ pubs, data = acad0)

mod3 <- lm(salary ~ time + pubs, data = acad0)

두 개의 예측변수를 모두 포함한 모형

Model 3: \(\widehat{Y} = a_0 + a_1 X_1 + a_2 X_2 ~ (z=2x-y+1)\)

\(\widehat{salary} = \$43,659 + \$1,224\:time\)

library(plotly)
plot_ly() %>%
  # the scatter plot of the data points 
  add_trace(x=acad0$time, y=acad0$pubs, z=acad0$salary,
            type="scatter3d", mode="markers",
            marker = list(color=acad0$salary, 
                          colorscale = c("#FFE1A1", "#683531"), 
                          size=6))
  • 교수들의 연차와 그들이 쓴 논문 수는 깊이 연관되어 있으며 (r = 0.66), 두 변수의 redunancy가 각 변수들의 효과를 변화시킴.
  • 두 예측 변수의 산술적 합으로 연봉을 예측하므로 각 예측변수의 효과는 수정될 수 밖에 없음.
  • 수학적으로 보면, 각 예측변수의 기울기는 다른 예측변수의 값에 상관없이 일정하므로, 다른 예측변수들을 (임의의 값에) 고정시키는 효과를 가짐
  • 즉, 다른 변수와는 독립적인, 고유한 효과를 추정하게 됨